iT邦幫忙

2023 iThome 鐵人賽

DAY 22
0

昨天提到 Timeout 的其中一個原因,就是機器資源不足或是超載的異常,當大量的 Request 發生時,可能會讓機器在 Memory, Disk, CPU 等等環節出現異常,而今天的 Health Check Based Monitoring 主要就是去偵測這些異常,讓 Inference Service 保持 Health 可連通的狀態

Health Check Based Monitoring 的偵測目標: Inference Instance 是否還在正常運作中,其中今天想介紹 Serverless 的方式去時做監控系統達到這目標

Serverless 又稱 FaaS,可以參考下圖:

https://ithelp.ithome.com.tw/upload/images/20230926/20161911a03bVSSwPZ.jpg

之所以選擇 Serverless 在監控題目中最主要的原因是我希望降低自己需要額外去監測監測系統的成本,透過 Faas 提供的 Auto Scaling 和 Fast Deployment 特性,在搭配 Serverless 監控時需要以下三個元件,這裡一樣以 AWS 提供的功能為例

  • Data Collector: 像是 Lambda Function 或是 API Gateway 來收集資訊
  • State Storage: 儲存狀態的數據庫, 像是 DynamoDB, 正常情況下這類的通知不一定需要存下 State
  • Data Source: Source 長常常會是 CloudWatch, S3 Event, 等等資訊來源,搭配 SNS (Message Queue) 來轉發訊息,像是 Sagemaker 本身就是和 CloudWatch 來結合,如果要自己時做會需要看如何整合像是 k8s 的資訊進來

Serverless 架構為 MLOps 中的模型監控提供了一種靈活、可擴展和成本效益的解決方案,並且有像是 Serverless.com 這樣 Iaas 的解決方案,來達到穩定部署和可依賴的監控


上一篇
Day 21 Error Handling and Status Code
下一篇
Day 23 Alarm & Dashboard
系列文
踏上 MLOps 之路:從 Applied Data Scientist 到 MLOps 的轉變與建構30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言